12代酷睿CPU再攀高峰,有哪些技术亮点?最新款酷睿测评前篇
英特尔12代酷睿(代号:Alderlake)上市以来,连夺各个游戏硬件评测平台的性能冠军。取得如此成绩,是和12代酷睿本身带来的技术创新分不开的。作为Intel 10nm制程工艺的第三代(如果加上Connonlake,准确的说是第四代)CPU,也是Intel宣布改名”Intel 7”工艺的第一代消费品CPU,它身上环绕着许多技术光环:第二代混合Hybrid CPU,混合了全新的性能核(Performance Core,P-Core)Golden Cove和能效核(Efficient Core,E-Core)Gracemont;第一次支持DDR5内存和XMP 3.0;第一次支持PCIe Gen5;卓越的超频能力等等。
毫无疑问,选择12代酷睿作为高性能平台是个明智的选择,但具体选择哪种CPU和为什么选择,则不甚清晰。为此,我将选择一款12代顶级桌面酷睿CPU 12900K作为评测对象(参考资料1),配以顶级GPU和具备XMP 3.0的DDR5 UDIMM内存条,通过各种Benchmark工具来综合评测一下,可以作为各位升级的参考。
作为开胃菜,和符合本专栏一贯技术先行的惯例,本文先逐条介绍各个12代酷睿新亮点,并在最后列出测试平台,具体测试结果和分析则在下一篇文中专门阐述。
新内核
也许是受到ARM世界big.LITTLE设计的启发,Intel早在Lakefield CPU(面向嵌入式平台)中就引进了类似设计,作为x86世界的创新之举,本专栏也有许多文章专门介绍了相关内容。12代酷睿是第一次在消费品CPU中引入这个技术,为了向普通消费者更好的阐述相关技术,有别于ARM的大小核术语,Intel将两种内核分别叫做性能核(Performance cores,P-Cores)和能效核(Efficient Core,E-Core)。性能核代号Golden Cove,聚焦IPC;能效核代号Gracemont,聚焦能耗比。两者结合和相互平衡,正如阴阳际会,在性能和功耗两个维度上满足用户需求。
性能核Golden Cove
从上一代微架构Willow Cove演进而来的性能核Golden Cove,针对IPC提高,进行了诸多优化。同样的微架构也应用在服务器CPU Sapphire Rapids(Eagle Stream平台)。
Golden Cove重点改善了单线程和AI运算的性能,总的来说沿着之前宣传的:"Wider, Deeper, Smarter"的产品演进路径继续向前。其中改善包括更深的乱序执行调度器和调度缓存,更大的Allocation窗口,和更多的EP(Execution Port)。有了这些改善,配以优化过的分支预测引擎,能让执行引擎更高效的工作,从而提高性能和改善并行执行效能。新一代性能核相较11代酷睿处理器RocketLake内核,性能提高19%:
下面我们来了解一下细节情况。
从CPU前端Front End来看:
来源:Intel
Intel加大了micro-ops(uops)解码宽度到一次32B,并增加了两个解码器到6个,比前一代增加了50%,从而可以一个Cycle解码6次。这是Intel第一个6发射的微架构。Uops缓存也加宽了,从而每Cycle可以提供8条uops,较前一代提高了33%,这是和6个解码器匹配的;加宽的同时也加深了,从2.25K加深到4K,提高了近一倍,这个可以提高uops的缓存命中率,从而改善性能。新架构加宽和加深了iTLB和BTB(Branch Target Buffer),从而可以在分支预测中跟踪12K个分支目标,从而让分支预测功能更加准确,从而让流水线更好的工作。
在乱序执行引擎来看:
来源:Intel
新架构加宽了Allocation单元,调度器因此可以更高效的工作。同时EP(Execution Port)增加了2个,增长了20%。调度引擎同时加深了调度缓存,这是和更多的EP相匹配的。
从执行单元来看:
来源:Intel
增加的EP10,对应了增加的ALU和LEA,它们让CPU的长项——整型计算,更快。相信这个体现在最后的测试结果中。
再来看L1和L2缓存:
来源:Intel
来源:Intel
L1 cache增加了一个LP(Load Port)达到3个LP;iTLB和dTLB entry都大幅增多;读取和存储 buffer也变得更多。L2 cache扩展成了1.25 MB(Alderlake)或2MB(Sapphire Rapids)
2
能效核Gracemont架构
12代酷睿能效核是ATOM技术线的Gracemont架构,它的前一代是Tremont。它的改进目标是提供更好的能效比,同时兼顾性能。
来源:Intel
关于它的细节因为篇幅的关系,这里就不展开讨论了。总的来说,它也秉承了"Wider, Deeper, Smarter"的演进思路,加深了前端,增宽了后端,增加了EP等功能模块,让执行更加迅速。另外在AI领域,增加了很多向量运算指令,如VNNI和AVX-256,但不支持AVX-512。
3
内核调度Thread Director以及Windows 11
性能核和能效核不同的设计目标,意味着它们有不同的最佳应用workload。好马须配好鞍,要它们各自运行在最佳状态,需要任务调度器将合理的任务调度到合适的内核种类上。这就需要调度器知道what is which,哪个内核是哪种架构。同时为了和现有软件兼容,降低调度器的设计难度,两种内核最好是指令集兼容的。
我们首先面对的是性能核和能效核指令不兼容的问题,性能核继承了前一代的AVX-512运算单元,而能效核这么小的面积放它进去则显得不合时宜。怎么办呢?Intel的做法是,尽管性能核支持AVX-512,但为了和能效核对齐,要在性能核上关闭AVX-512。
解决完指令集相容问题,接下来要解决调度问题。需要说明的是,与网上很多传言不同,Windows 10在后期的patch中,为了支持第一代混合CPU Lakefield,已经集成相关代码到线程调度器中。也就是说Windows 10已经支持性能核和能效核,问题在于,它支持的十分简单粗暴。调度算法为了提高系统相应时间,其实也是Windows线程调度原先的主要目标,往往将前景有焦点的线程放到性能核,而把失焦时间长的放入能效核。这也许在某些办公使用场景是适用的,但往往不适用于调度大量线程运算的游戏场景,其背景渲染往往是失焦和后台运行的。这带来严重的性能问题,所以不建议在Windows 10中使用12代酷睿处理器。那么解决办法是什么呢?
12代酷睿处理器带来全新设计的硬件调度引擎Thread Director,与之配合的微软最新操作系统Windows 11,集成了最新的线程调度器:
Thread Director是硬件方案,在CPU中内建了一个叫做Telemetry的情报网,在ns级这个维度上收集每个内核的指令运行情况、温度信息等数据,将这些数据汇报给Windows 11的线程调度器。Windows 11调度器利用这些信息,结合内核的架构种类、任务优先级和忙碌状态,综合调度,极大的提高了调度的准确性。可以说,12代酷睿的成功,混合核心的成功部署,这一套行之有效的软硬件结合策略,居功至伟。为此,我们随后的测试平台,只选用Windows 11作为测试操作系统。也推荐大家选用Windows 11作为12代酷睿运行的操作系统。
DDR 5与XMP 3.0
作为向DDR5过渡的第一代产品,12代酷睿CPU PHY支持DDR5和LPDDR5(DDR5-4800 和LPDDR5-5200),同时也支持DDR4和LPDDR4x(DDR4-3200和LPDDR4x-4266),可谓是面面俱到。
来源:Intel
但与DDR3向DDR4演进时,有主板同时支持DDR3和DDR4(不同的槽位),因为DDR5信号完整性约束更强,设计同时支持两种内存的主板难度非常大。至今,我还没有听说哪种主板同时可以支持两种。大量第三方测试表明,稍低主频的DDR5内存,相较使用DDR4内存,性能提高不是特别大。于此同时DDR5内存价格相比DDR4,则非常高,建议读者量力而行。现今支持12代酷睿,主打经济性的中低端主板,往往支持DDR4;而面向高性能计算或者游戏用户的高端主板,往往支持DDR5。大家选择的时候还要结合是否近期又要升级(DDR5在下次升级还可以继续使用)等个人情况,理性选择。
DDR5的相关技术介绍本专栏已经进行过多次,这里不再详述,读者可以移步到相关文章进行阅读,这里不再赘述。
本文要介绍另一个12代酷睿的技术亮点:Dynamic Memory Boost和与之配套的XMP 3.0。
XMP 3.0
XMP技术我之前介绍过,感兴趣的读者可以阅读相关文章。XMP 3.0相较之前2.0,在内存SPD数据里面扩展三组内存参数:
来源:JEDEC
其中1组是和原来XMP的静态扩展一样的静态信息,由内存厂家提供。而另外两组则是可以用户在主板BIOS的帮助下,调整到某个理想和稳定超频的状态,存下来,下次可以用的。这就让内存超频变得十分简便,而且增加了很多可玩性。
2
Dynamic Memory Boost
这个技术可以理解为内存的Turbo Mode:
来源:Intel
简单来说,Intel内存控制器会根据内存使用情况,自动在标准内存参数和XMP超频参数之间动态切换。与之相比,以前XMP超频参数的打开和关闭,需要重新启动电脑。各位,这个是不是和CPU Turbo Mode比较像?
需要强调的是,12代酷睿对DDR4和DDR5都支持开启Dynamic Memory Boost,但因为DDR5 PMIC内置和提供的XMP Profile更多,更加好用和灵活而已。
PCIe 5.0
12代酷睿第一次在消费平台上引入了PCIe 5.0:
来源:Intel
PCIe 5.0相比PCIe 4.0,带宽高了一倍,16个lane可以提供64 GB/s的带宽,足以满足一段时间的显卡带宽需求。尽管现在市面上我还没有见到PCIe 5.0的设备,但根据NVIDIA的计划4090系列应该会上PCIe 5.0,以满足大带宽和大电流的需求。12代酷睿提前布局,可以满足广大游戏客的未来需求。
和前一代一样,12代酷睿还额外提供4个lane的PCIe 4.0接口,可以外接NvME SSD,避免从南桥的DMI走,避免了拥塞和降低延迟。对存储性能提升比较明显。
Z690南桥
好马也要好鞍配,12代酷睿还匹配了升级的南桥。以支持超频的z690为例来看看它的新特性:
来源:Intel
Z690基于14nm工艺制作,相比11代酷睿搭配的Z590和在之前的Z490:
其中有不少亮点:
1. DMI从3.0升级到4.0,与PCIe 4.0相比PCIe 3.0带宽高一倍一样,DMI 3.0提高了一倍带宽。8个Lane保持不变。
2. 南桥第一次支持了PCIe 4.0。支持12个lane PCIe 4.0和16个Lane的PCIe 3.0,总共28个Lane,总数也比前一代多了4个。
3. SATA和USB的port多了一些,可以支持更多的外围设备。
卓越的超频能力
从12代酷睿开始,Intel开始淡化TDP (Thermal Design Point)的概念,而用PBP(Processor Base Power)代替。PBP相对性能核和能效核的基本频率(Base Frequency),另外新增加了MTP(Maximum Turbo Power)概念,以此相对Turbo模式的频率(Turbo Frequency)。如我们将要选择的12900K,这组数据是:
来源:参考资料1
对于需要超频的读者来说,有一点要特别注意的是,和前代一样,需要挑选K系列的CPU和带z690的主板才能尝试超频。
12代酷睿超频也是在超频方面可玩性全面提高的一代,甚至Intel的CEO在大会上也公开表演超频,这在以前是看不到的。超频可玩性主要表现在:
1. 性能核和能效核有自己不同的ratio,两种可以单独调ratio。
2. 默认情况,BCLK内置了(当然主板也可以选择外置)。外置BCLK可以用来调超高频,内置BCLK可以用BIOS调节(通过ME);
3. PL1、PL2、Tau和IccMax的调节是传统超频最重要的部分。12代酷睿多了不少玩法,而且在IccMax上从最高256A变得可以调节到512A,可以调节到超高频。
这里要提醒挑战超高频的读者,需要购买好的主板和更大的电源,超高频甚至需要液氮降温配合。
另外因为12代酷睿变薄了(Z-height变低),以前的散热风扇不太适合,建议购买新风扇。
结论
作为“Intel 7”制程的第一代:
12代酷睿有着诸多的新功能和改进,为Intel夺回市场份额做了巨大贡献。我们介绍了这么多,各位读者是不是希望看看具体性能到底怎么样呢?为此我精选了测试平台:
它们的图片和购买链接
CPU:
GPU:
内存:
感兴趣的同学请继续关注本文后续文章:《12代酷睿性能到底怎么样?i9-12900K测评》
参考资料
[1]:12900K CPU参数链接:
https://ark.intel.com/content/www/us/en/ark/compare.html?productIds=134599